^ PCT/£^ 9 9 / 0 5 9 7 2^ 

• •• •• 


Die Deutsche Telekom AG in Bonn/Deutschland hat eine Patentanmeldung unter 
der Bezeichnung 

"Verfahren zur instrumentellen Sprachqualitatsbestimmung" 


am 27. August 1998 beim Deutschen Patent- und Markenamt eingereicht. 

Die angehetteten Stucke sind eine richtige und genaue Wiedergabe der urspriingli- 
chen Unteriagen dieser Patentanmeldung. 

Die Anmeldung hat im Deutschen Patent- und Markenamt vorlaufig das Symbol 
G 10 L 3/00 der Internationalen Patentklassifikation erhalten. 



Bescheinigung 


Munchen. den 25. August 1999 
Deutsches Patent- und Markenamt 


Der Pr£lsident 


Im Ai 



Aktenzeichen: 198 40 548.0 



teller 




Verfahren zur instrumentellen Sprachqualitatsbestimmung 


- Beschreibung- 


Vorbemerkung 

Die Erfindung bezieht sich auf ein Verfahren zur instrumentellen ("objektiven") 
Sprachqualitatsbestimmung, bei dem durch Vergleich von Eigenschaften eines zu be- 
wertenden Sprachsignals mit Eigenschaften eines Referenzsprachsignals CungestSrtes 
Signal) Kennwerte zur Bestimmung der Sprachqualitat (SprachgUte) abgeleitet werden. 

Sprachqualitatsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver 
("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen. 

Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachqualitatsbestimmung 
ist es, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter Rechen- 
verfahren Kennwerte zu ermittehi, die die Sprachqualitat des zu bewertenden 
Sprachsignals beschreiben, ohne auf Urteile von Versuchspersonen zuruckgreifen zu 
mussen. 

Die berechneten Kemiwerte und das zugrunde gelegte Verfahren zur instrumentellen 
Sprachqualitatsbestimmung gelten als anerkamit, wenn eine hohe Korrelation zu Ergeb- 
nissen auditiver Vergleichsuntersuchungen erreicht wird. Die mittels auditiver 
Untersuchungen gewonnenen Sprachqualitatswerte stellen somit die Zielwerte dar, die 
durch instrumentelle Verfahren erreicht werden sollen. 


Stand der Technik 

Bekamite Verfahren zur instrumentellen Sprachqualitatsbestimmung beruhen auf einem 
Vergleich eines Referenzsprachsignals mit dem zu bewertenden Sprachsignal. Dabei 
werden das Referenzsprachsignal und das zu bewertendes Sprachsignal in kurze 
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Zeitabschnitte segmentiert. In diesen Segmenten werden die spektralen Eigenschaften 
der beiden Signale verglichen. 
Fur die Berechnung^eTspelmule^ 

Ansatze und Modelle zur Anwendung. In der Regel erfolgt die Berechnung der Signal- 
intensitat in Frequenzbandem, deren Breite mit zunehmender Mittenfrequenz groBer 
wird. Beispiele fiir solche Frequenzbander sind die bekannten Terzbander oder Fre- 
quenzgruppen nach Zwicker (veroffentlicht in Zwicker, E.: 'Tsychoakustik", Berlin: 
Springer- Verlag, 1982). 

Die derart berechnete spektrale Intensitatsabbildung fur jeden betrachteten Zeitabschnitt 
lafit sich als Reihe von Zahlenwerten auffassen, in der die Anzahl der Einzelwerte der 
Anzahl der verwendeten Frequenzbander entspricht, die Zahlenwerte selbst die 
berechneten Intensitatswerte darstellen und ein fortlaufender Index der Frequenzbander 
die Reihenfolge der Zahlenwerte beschreibt. 

Bei den derzeit bekannten Verfahren zur instrumentellen Sprachqualitatsbestimmung 
werden die Grenzen der benutzten Frequenzbander auf der Frequenzachse konstant 
gehalten. 

In jedem betrachteten Zeitsegment werden die berechneten Intensitaten von zu 
bewertenden Sprachsignal und Referenzsprachsignal in jedem Band miteinander ver- 
glichen. Die Differenz beider Werte, bzw. die Ahnlichkeit der beiden entstehenden 
spektralen Intensitatsabbildungen, stellt die Grundlage fur die Berechnung eines Quali- 
tatswertes dar (Fig. 1). 

Solche Verfahren wurden insbesondere fur die qualitative Bewertung der Sprache in der 
Telefonieanwendung entwickelt. Beispiele hierfur sind die Veroffentlichungen: 

"A perceptual speech-quality measure based on a psychacoustic sound representation" 
(Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S.115-123) 
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"Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: 
IEEE Proc. Int. Conf. acoust., speech and signalprocessing (1991), S.493-496). 


Der derzeit giiltige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren: 
"Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861, 
Genfl996). 


Nachteile bekannter instrumenteller SprachquaUtatsmefiverfahren 
Der Einsatz von bekannten Verfahren zur instrumentellen Sprachqualitatsbestimmung 
scheitert an der Zuverlassigkeit der berechneten Qualitatswerte fflr bestimmte zu 
bewertende Signaleigenschaften. Insbesondere bei Beeintrachtigungen im zu 
bewertenden Sprachsignal, wie sie z.B. durch Sprachcodierverfahren mit niedrigen 
Bitraten oder Kombinationen von unterschiedlichen Storungen hervorgerufen werden, 
liefem derzeit bekannte Verfahren nur unsichere Qualitatswerte. 

Nachteilig bei den heute bekannten Verfahren ist in solchen Fallen, daB bei einem 
Vergleich zwischen dem zu bewertenden Sprachsignal mit einem Referenzsprachsignal 
Unterschiede zwischen beiden Signalabschnitten in der gewahlten Darstellungsebene in 
den zu berechnenden Qualitatskennwert einflieBen, die nicht oder kaum zu einer - auch 
im auditiven Test wahmehmbaren - qualitativen BeeintrSchtigung fiihren. 

Im Rahmen der hier betrachteten SprachUbertragung in Telefonanwendungen tragen 
Frequenzbandbegrenzungen und spektrale Verformungen des zu bewertenden 
Sprachsignals (z.B. hervorgerufen durch Filtereigenschaften des Telefongerates oder des 
Ubertragungskanals) nur begrenzt zu einer empfimdenen qualitativen Beeintrachtigung 
bei. 

Um diese Mangel teilweise zu vermeiden, wird in einem anderen Ansatz versucht, die 
linearen Verzerrungen (Frequenzgang) durch ein Korrekturfilter bzw. eine Leistungs- 
ubertragungsfunktion zu kompensieren (veroffentlicht in: "A new approach to objective 
quality-measures based on attribute-matching", Halka, U.; Heute, U., Speech 
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communication, 1 1(1992)1, S. 15-30). Die Anwendung dieses Verfahrens ist jedoch bei 
nichtlinearer und zeitinvarianter Ubertragung nachteilig, da die so berechnete Kompen- 
'^sationsfunlcfionliicht mehr ausscHlieBlicirdie" spelSralelT YSfoanungerTd ~ 
bewertenden Signals beschreibt. 

Verschiebungen spektraler Kurzzeit-Maxima ("Formantverschiebungen") im zu 
testenden Signal gegeniiber dem Referenzsprachsignal, z.B. verursacht durch 
Codiersysteme mit niedriger Bitrate, fiihren bei bekannten Verfahren zu groflen 
Unterschieden in den spektralen-Intensitatsabbildungen und gehen damit stark in den 
berechneten Qualitatswert ein. Untersuchungen haben ergeben, daS in einer auditiven 
Sprachqualitatsuntersuchung diese Verschiebungen spektraler Kurzzeit-Maxima jedoch 
nur begrenzten EinfluB auf das Qualitatsurteil haben. 

Aufgabe 

Die Erfmdung stellt sich die Aufgabe, den Einflufi von spektralen Begrenzungen und 
Verformungen des zu bewertenden Sprachsignals sowie von Verschiebungen spektraler 
Kurzzeit-Maxima vor dem Vergleich der spektralen Eigenschaften eines zu testenden 
Signals mit einem Referenzsprachsignal und der Berechnung eines Qualitatswertes in 
instrumentellen Verfahren zu reduzieren. 

Losung 

Im Gegensatz zu bekannten Ansatzen wird in der hier beschriebenen Erfindung eine 
spektrale Wichtungsfunktion generiert, die auf mittleren spektralen Einhiillenden, z.B. 
der mittleren spektralen Leistxmgsdichte, von zu bewertendem Sprachsignal und 
Referenzsprachsignal beruht. Dies ermoglicht den Einsatz des Verfahrens ebenfalls bei 
nichtlinearer und zeitvarianter Ubertragung. 

Die spektrale Wichtimgsfimktion wird aus den Quotienten der Stutzwerte der mittleren 
spektralen Leistungsdichte des zu bewertenden Signals PhiyCf) und der des 
Eingangssignals des Ubertragungssystems Phix(f) derart berechnet, daB die Wichtungs- 
funktion iiber 

WT(f) = a(f) (Phiv(£)/Phix(f)) 
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zu beschreiben ist. Die Bewertungsfunktion a(f) kann die Wichtungsfimktion W^Cf) an 
"ab-^denWi?kunPb-ei^ichunterscffiedli5^^ 


konstant 1 . 

Die derart berechnete spektrale Wichtungsfimktion W^Cf) nahert die mittleren spektralen 
Einhullenden von zu bewertenden Sprachsignal und Referenzsprachsignal einander an, 
so dafi Unterschiede der beiden spektralen Einhullenden nur noch vemiindert in den 
berechneten Qualitatswert einflieBen. 

Die spektrale Wichtungsfunktion W^f) kann zum einen auf das Referenzsprachsignal 
angewendet werden. Dabei wird das Referenzsprachsignal in seiner mittleren spektralen 
Leistungsdichte dem zu bewertenden Signal angenShert (Fig. 2a). 

Zum anderen kann die spektrale Wichtungsfimktion invertiert auf das zu bewertende 
Signal angewendet werden. Dieses wird dadurch entzerrt und, hinsichtlich seiner 
mittleren spektralen Leistungsdichte, an das Referenzsprachsignal angenahert (Fig. 2b). 


Ein weiterer Teil der Erfindung bezieht sich auf die Korrektur von Verschiebungen 
spektraler Kurzzeit-Maxima, die durch die Ubertragungssysteme verursacht werden. 

Die Intensitat wird fur jeden Zeitabschnitt in Frequenzbandem integriert. Resultat ist 
eine Reihe von Intensitatswerten fiir jede spektrale Darstellung eines Signalabschnitts, 
wobei jeder Einzelwert die Intensitat in einem Frequenzband reprasentiert. Die 
Verschiebungen spektraler Kurzzeit-Maxima kSnnen hierbei zu abweichenden 
berechneten Intensitaten in den Frequenzbandem von Referenzsprachsignal und zu 
bewertenden Sprachsignal fiihren. 

Diese Abweichungen in den spektralen Intensitatsabbildungen - verursacht 
Verschiebungen spektraler Kurzzeit-Maxima -konnen durch eine variable Anordnung 
der Frequenzbander auf der Frequenzachse reduziert werden. Im Gegensatz zu den 
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konstanten Bandgrenzen bei bekannten Verfahren werden die Bandgrenzen auf der 
Frequenzachse verschoben. Die Zahl der Frequenzbander und deren Index bleibt aber 
konstant . In einer Optimierungsschleife werden dann diejenigen Bandgrenzen akzep- 
tiert, bei denen die beiden entstehenden spektralen Abbildungen von zu bewertenden 
Sprachsignal und Referenzsprachsignai maximale Ahnlichkeit aufweisen bzw, deren 
Abstand minimal ist . Diese Optimierung wird fiir alle Bander in alien betrachteten Zeit- 
segmenten durchgefiihrt. 

Der Einsatz variabler Bandgrenzen zur Berechnung der spektralen Intensitatsabbildung 
ist nicht nur auf das Signal, in dem auch die beschriebene spektrale Wichtungsfunktion 
W-p(f) zum Einsatz kommt, beschrankt, sondem kann auch auf das jeweils andere Signal 
und sogar auf beide Signale angewendet werden. (vgl. Fig. 2a und 2b). 


Ausfuhrungsbeispiel: 

Ein spezielles Ausfuhrungsbeispiel zeigt eine Realisierung gemaB Fig. 3, die als 
TOSQA (Telecommunication Objective Speech Quality Assessment) bezeichnet wird. 
Hierbei erfolgt eine erweiterte Vorverarbeitung des Referenzsprachsignals. 

In Spezifikation der allgemeinen Realisierungen nach Fig. 2a und 2b werden hier 
Sprachpausen mittels eines Sprachpausenerkenners erkannt und gehen nicht in das 
QualitatsmaB ein. Ebenfalls erfolgt eine Filterung von Referenzsprachsignai und zu 
bewertendem Sprachsignal mit einem Bandpafi 300.. .3400 Hz sowie eine Filterung auf 
den Frequenzgang eines Telefonhandapparates. Die Integration der spektralen 
Leistungsdichte erfolgt in Frequenzgruppen, die die Basis fur die Berechnung der 
spezifischen Lautheit darstellen. 

Die Integration in Frequenzgruppen erfolgt jedoch nicht in festen Frequenz- 
gruppengrenzen, sondem mit den in dieser Erfmdung beschriebenen variablen 
Frequenzgruppengrenzen. Die berechneten Signalleistungen in den so modifizierten 
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Frequenzgruppen bilden die Basis fiir die Intensitatsberechnung. Hier wurde auf < 
Modell zur Berechnung der spezifischen Lautheit nach Zwicker, einer gehorrichtigen 
IntensitatsabbildiiiiirzuriickgegriffenO;^^^ 
Berlin: Springer- Verlag, 1982). 


Die berechneten Lautheitsmuster werden in Erganzung des allgemeinen Ansatzes noch 
durch eine Fehlerbewertungsflmktion erganzt. Der berechnete Qualimtswert wird iiber 
einen Mittelwert der Korrelationskoeffizienten der spezifischen Lautheiten fur jedes 
betrachtete kurze Zeitsegment uber die Zahl der ausgewerteten Sprachsegmente 
gebildet. 
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Patentanspniche (6) 

1. Verfahren zur instrumentellen Sprachqualitatsbestimmung, bei dem durch 
Vergleich von spektralen Kurzzeiteigenschaften eines zu bewertenden 
Sprachsignals mit einem Referenzsprachsignal Kennwerte zur Bestimmung der 
Sprachqualitat berechnet werden, dadurch gekennzeichnet, 
dafi vor dem Vergleich der Eigenschaften der Sprachsignale, Unterschiede in 
mittleren spektralen Einhullenden verringert werden, indem aus diesen zuerst eine 
spektrale Wichtungsfunktion berechnet wird, mit der die spektralen Kurzzeit- 
eigenschaften der Sprachsignale in alien betrachteten Zeitsegmenten gewichtet 
werden, so daB die Unterschiede in den mittleren spektralen Einhullenden dadurch 
nur begrenzt in den zu berechnenden Qualitatskennwert einflieBen, und 

daB fiir die Berechnung der Signalintensitat die Grenzen der benutzten Frequenz- 
bander variabel gestaltet werden, so daB fur jeden betrachteten Signalabschnitt in 
jeweils alien ausgewerteten Frequenzbandem die berechneten Intensitaten von 
Referenzsprachsignal und zu bewertendem Signal zueinander moglichst geringe 
Unterschiede aufweisen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dal3 zuerst die mittleren 
spektralen Einhullenden von zu bewertenden Sprachsignal und 
Referenzsprachsignal in Form eines mittleren Leistungsdichtespektrums berechnet 
werden und aus dem Quotienten beider Spektren eine spektrale Wichtimgsfimktion 
Wj(f) berechnet wird, mit der die Kurzzeit-Leistungsdichtespektren des 
Referenzsprachsignals vor der Berechnung eines Qualitatskennwertes gewichtet 
werden. 

3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daB die zu 
berechnende Wichtungsfunktion W-i.(f) nur aus Teilbereichen der berechneten 
mittleren spektralen Einhullenden von zu bewertenden Sprachsignal und 
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Referenzsprachsignal berechnet wird und damit die Unterschiede in mittleren 
spektralen EinhuUenden zwischen beiden Signalen nur in spektralen Teilbereichen 

verringert werden. ^ " 

4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daB vor Berechnung der 
Qualitatskennwerte eine Integration der Signalintensitat fur jeden ausgewerteten 
kurzen Zeitabschnitt in Frequenzgruppen erfolgt, wobei die Grenzen der 
Frequenzgruppen auf der Frequenzachse variabel sind, aber die Breite der 
Frequenzgruppen auf der Tonheitskala konstant bleibt, und daB aus den Signal- 
intensitaten in den Frequenzgruppen eine Berechnung der spezifischen Lautheit 
erfolgt, wobei die Grenzen der Frequenzgruppen benutzt werden, bei denen die 
bereclineten Unterschiede in der spezifischen Lautheit zwischen dem zu 
bewertenden Signal und dem Referenzsprachsignal im jeweils betrachteten Band 
und Zeitsegment den geringsten Unterschied aufweisen. 

5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, dafi der Qualitats- 
kennwert aus der Ahnlichkeit der spektralen Darstellungen in jedem betrachteten 
Zeitabschnitt berechnet wird, wobei die Ahnlichkeit einen uber alle betrachteten 
Zeitabschnitte gemittelten Korrelationskoeffizienten zwischen der spektralen 
Darstellung des zu bewertenden Sprachsignals und der spektralen Darstellung des 
Referenzsprachsignals im jeweiligen Zeitsegment darstellt. 

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daB der Korrelations- 
koeffizient zwischen der spektralen Darstellung des zu bewertenden Sprachsignals 
und der spektralen Darstellung des Referenzsprachsignals im jeweiligen 
Zeitsegment nur von einem Teilbereich der spektralen Darstellung berechnet wird, 
d.h. fur die Berechnung des Qualitatskennwertes nicht alle berechneten 
Spektralwerte berucksichtigt werden. 
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Zusammenfassung 

Y. Verfahren zur instrumentelfen Sprachqualitatsbestimmung 


Bekannte Verfahren zur instrumentellen Sprachqualitatsbestimmung auf der Basis 
eines Vergleichs von Signalintensitaten des zu bewertenden Sprachsignals mit 
einem Referenzsprachsignal bewerten spektrale Verformungen des zu bewertenden 
Sprachsignals nicht optimal^ so daB die QualitatsbewerUmg unsicher ist. 
Desweiteren werden durch die Integration der Signalintensitat in Frequenzbandem 
mit konstanten Bandgrenzen bestimmte Verfalschungen des zu bewertenden 
Sprachsignals, wie sie z.B. durch Codiersysteme niederer Bitraten hervorgerufen 
werden, fehlerhaft bewertet . 

2.2 Um die Aussagesicherheit der berechneten Qualitatskennwerte zu erhohen, werden 
15 zum einen Verformungen der mittleren spektralen EinhuUenden vor einem Ver- 

gleich der spektralen Eigenschaften mit einer Wichtungsfunktion Wj{f) weitgehend 
korrigiert. Zum anderen werden die festen Bandgrenzen zur Integration der 
spektralen Leistungsdichte aufgehoben und statt dessen in einem vorgegebenen 
Optimierungsbereich Bandgrenzen gesucht, bei denen die sich ergebenden spek- 
20 tralen Intensitatsabbildungen von zu bewertenden Sprachsignal und 

Referenzsprachsignal eine maximale Ahnlichkeit aufweisen. 

^^^^^ 2.3 Die beschriebenen Losungen konnen bekannte Verfahren erweitem und zu deren 
Struktur hinzugefugt werden. 

25 

3. Fig. 2a 
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